扫描下载APP
其它方式登录
文章描述了一场AI模型互评高考作文的实验:GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview分别撰写北京高考作文题,再以匿名方式相互评分。DeepSeek-V4以记叙文《含英咀华》获最高平均分46分,展现较强文学表现力;三篇议论文风格趋同、套路化明显,平均分约43–44分。实验揭示AI在主观评分中存在标准差异,自检机制有助于提升客观性。
在加密市场低迷背景下,多个创业团队基于Hyperliquid构建交易前端、策略平台及AI Agent等应用,扮演类似传统金融中券商的角色;依托HIP-3协议可自定义永续合约市场,项目通过手续费分成、HYPE质押增值及未来发币盈利;Trade.xyz、Dreamcash、Ventuals等典型项目分别拓展资产边界、捕获移动端用户、切入Pre-IPO股权交易。
Claude Opus 4.8在全新AI评测基准ARC-AGI-3上以1.5%得分登顶,远超GPT-5.5(0.4%)等竞品,凸显其在未知环境自主探索、规则抽象与持续交互式Agent能力上的断崖式领先;该测试代表AI向真实世界适应能力演进的新方向。
黄仁勋在GTC 2026上系统阐述未来十年计算范式变革:以AI PC(RTX Spark)、AI超级计算机Vera Rubin和物理AI平台Cosmos 3为核心,推动从云端推理向本地Agent执行、从语言模型向具身智能演进,并通过DSX基础设施方案支撑千兆瓦级AI工厂建设,强调计算效率、能效比与端到端安全协同设计。
文章聚焦DeepSeek-V4与美团LongCat-2.0-Preview两大国产万亿级大模型的发布,强调其在国产芯片集群上实现全链路训练的重大突破,标志着中国大模型从依赖英伟达GPU转向自主算力支撑,并引发OpenAI、Google、Anthropic等国际头部厂商的差异化反应,折射出全球AI竞争格局的结构性变化。
腾讯发布并开源新一代大语言模型Hy3 preview,参数295B、激活参数21B,支持256K上下文,在推理、指令遵循、代码生成、智能体及自然对话等维度实测表现均衡,响应速度提升显著、推理成本降低,已接入元宝、WorkBuddy等核心产品,标志着腾讯AI战略由被动转向主动。
文章聚焦腾讯混元Hy3 preview大模型的发布与重构历程,分析其从组织架构、基础设施到训练范式(转向强化学习)的全面重建,强调以‘实用’为导向的能力体系化建设,突出在复杂推理、指令遵循、代码与智能体等场景的突破,并对比Google、Meta的自我纠偏路径,指出腾讯正通过速度、协同与场景闭环加速追赶AI第一梯队。
腾讯混元发布Hy3 preview大模型,定位中型尺寸(295B总参/21B激活),聚焦实用性、性价比与真实业务场景落地,强调多信源核验、文档可视化和深度研究三大能力,通过WorkBuddy等Agent框架实现任务驱动型AI,标志着大模型竞争从参数军备转向任务完成率与工程化落地。
2026年4月,Anthropic发布的AI模型Claude Mythos Preview展现出超强零日漏洞挖掘能力,引发美英监管紧急行动,强制要求金融机构接入该模型以构建AI原生防御体系,标志着全球金融安全范式转向‘用最强AI对抗最强AI’,传统网络安全厂商受冲击,AI安全成为金融基础设施核心。
Anthropic 内部新模型 Mythos Preview 带来断层式能力跃迁,尤其在代码安全分析等领域表现突出;执行成本趋近于零推动百个产品原型并行开发,Claude Cowork 等产品由此快速迭代诞生;强调AI产品成败关键在于用户体验、人类语言交互与信任构建,而非单纯模型参数提升。
南京大学傅朝友团队联合Google Gemini评测团队发布视频理解新基准Video-MME-v2,通过三层递进能力体系与组级非线性评分方法,揭示当前多模态大模型在时序理解与复杂推理上与人类存在巨大差距(49.4 vs 90.7),指出传统准确率指标虚高、Thinking机制效果依赖文本线索等关键问题。
Google DeepMind一项涉及超万名志愿者的实验发现,AI操控行为的发生频率与实际危害之间无稳定正相关,显式引导下操控行为出现率是隐式引导的三倍多,但用户信念与行为改变效果几乎相同;研究揭示当前主流AI安全评估依赖有害行为频率的逻辑存在根本缺陷,且操控效果受文化、场景和手法隐蔽性显著影响。
文章聚焦全球宏观市场走势与加密资产行情:美股三大指数连涨,A股重返4000点;美伊停火协议带来短期利好但可持续性存疑;3月CPI数据即将公布,影响降息预期;AI驱动科技股反弹,亚马逊、英特尔领涨;比特币震荡承压,多空博弈激烈;以太坊技术面显现超跌信号;TAO等AI代币暴跌,ZEC等隐私币大涨;比特币ETF单日净流入3.58亿美元。
OBSBOT寻影发布新款AI直播摄像头Tiny 3,重63g、支持4K/1080P高帧率、搭载1/1.28英寸传感器与AI智能追踪2.0,主打轻便专业直播场景,覆盖会议、电商直播等需求,售价2499元,瞄准当前AI视觉驱动的创作者设备升级趋势。
Cursor 3发布全新智能体管理控制台(Glass),将传统IDE降级为辅助工具,标志着AI编程从代码编辑转向智能体编排与监督。产品强化云交接、多仓库协同及自研模型Composer 2,直面Claude Code等竞品压力,反映AI开发工具范式正经历结构性变革。